在模式连通性文献中被广泛接受的是,当两个神经网络在相同的数据上类似地训练时,它们通过路径通过参数空间连接,维持了测试集精度。在某些情况下,包括从预验证的模型中转移学习,这些路径被认为是线性的。与现有结果相反,我们发现在文本分类器(在MNLI,QQP和COLA上训练)中,一些填充模型具有较大的障碍,它们之间的线性路径之间的损失越来越大。在每个任务上,我们都会发现模型的不同簇,这些模型簇在测试损失表面上是线性连接的,但与集群外部的模型断开 - 模型占据了表面上的单独盆地。通过测量专门制作的诊断数据集的性能,我们发现这些簇对应于不同的概括策略:一个群集的行为就像域移动下的一袋单词模型一样,而另一个群集使用句法启发式方法。我们的工作表明,损耗表面的几何形状如何指导模型朝着不同的启发式函数。
translated by 谷歌翻译